查看原文
其他

AI播客工具2年超百万用户,吴恩达投了3轮

临风 创业邦
2024-09-20

能发出与你几乎一模一样的声音,拿下千万美元融资

作者丨临风
编辑丨海腰
图源丨图虫创意


播客创作者逐年增多。

据Spotify,2023年仅其一个平台上就有超500万个播客节目,活跃的播客总数在300万-400万之间,涵盖各种类型。其中,有不少是由文转语音的AI完成的播客,声音没有Siri或小爱同学的人工机械味儿,有时甚至能“以假乱真”。

如今,亚美尼亚公司Podcastle亮了亮招牌技能,它能让用户克隆自己的声音做成语音“皮肤”。而且,该平台内还有30余款AI语音“皮肤”可供用户选择,包含多种语言(含方言)。

Podcastle成立于2020年,它为播客创作者搭建AI工具平台,集成了语音克隆工具Revoic,降噪工具Magic Dust AI和团队协作功能,首先在美国打开市场完成用户积累。

(图源:Podcastle)

Podcastle在公告中称,他们迎合了播客创作者、个体商户、营销员和教育工作者的内容创作需求,创作者社区用户增长迅速,从2021年的15万人增长至超100万。

创始人Arto Yeritsyan是亚美尼亚企业家,毕业于埃里温国立工程大学,毕业于斯坦福商学院。他曾是PicsArt的工程副总裁和Be2的技术主管。当前,其领导团队主要来自Canva、Prezi、Uber和Facebook。

今年2月,他们最新一轮A轮融资1350万美元,由Mosaic Ventures领投,RTP、P9、Sierra、吴恩达的 AI Fund以及 Squarespace和Moonbug Media的首席执行官参投,其中Sierra、AI Fund连投3轮。




创建自己的语音“皮肤”

Podcast Host调研了2500名播客创作者,有32%的人表示播客的编辑和制作是最大的担忧。

Podcastle公司CEO Arto Yeritsyan在SpeechTech发表观点,播客有两项重大技术的飞跃,一是文转语音技术让创作者无需说话即可制作音频,二是创建自己的克隆声音免去重复录制。而这两点,都可以靠人工智能工具实现,达成更高效率的创作。

借此技术趋势,Podcastle从一个扩展程序,在2022年进军视频播客领域,目前发展为AI套件工具的平台。用户在平台内可完成录制、音频编辑的全流程。该平台专注于长篇内容创作,并通过提供实时协作和人工智能功能来区别于竞争对手。

(图源:Podcastle)

它集成了语音克隆、降噪、文转语音TTS等工具,都需付费。其中降噪增强功能Magic Dust AI被测评博主推荐多次,该功能称可“一键”消除背景噪音、均衡音频电流,将低质录音转换到录音室级别。

从示例音频效果来看,其将原设备录制中存在的风声、电流声清除,留下人声后增加了音质。

(来源:Podcastle)

另一项功能Revoic,人工智能生成声音。用户可以克隆自己声音的数字副本。用户需要录制70个自己阅读的句子提交语音样本,启动Revoice后24小时内可获得模仿真实声音的语音模板。

(来源:Podcastle)

人工智能分析已录制的语音样本,学习人类的语调、口音和细节创建数字副本。它就像一个语音“皮肤”一样,克隆后便能应用在各种场景之中。

Arto认为,Revoic意味着播客创作者们可以更少地依赖棚内环境和专业录音设备获得高质量效果。

The Verge作者David Pierce使用了The Office的《Dwight's Perfect Crime》的片段文本,并将用他自己的声音在Podcastle克隆了AI语音,比较了几个语音平台的生成效果。

(来源:The Verge,Podcastle+AI David Pierce)

(来源:The Verge,Descript 文转AI语音)

(来源:The Verge,iOS17个人语音功能)

(来源:The Verge,ElevenLabs生成)

从效果来看,ElevenLabs的生成效果最真实,带有语音主人的个人情绪,其次是Podcastle,接近人类真实声音,感情表达稍弱。

博主Feisworld测试了Revoic,人类原声和AI语音模板能听出明显区别,AI版的声音音色接近原音、吐词清楚,但稍显机械化,更像在逐字逐句阅读原文,人类原声则有语调起伏、铿锵有力。

(来源:YouTube,Feisworld)

Fei表示,“我不会将AI语音视为要替代我的工具,但我认为这在其他任务上是有益的,如阅读较难的科学或哲学文章,以及广告语。”她也指出问题,“如果是AI生成的语音,能改变语调将会是很棒的,但目前(2023年)我没在Podcastle看到改变语气的选项/方法。”

Podcastle语音克隆Revoic的确有适应的场景,当播客创作者制作长视频/音频需要录制大量旁白、画外音及特殊语言/方言,就可以适当使用这项功能。

除这两项功能外,Podcastle与多数AI平台一样,有处理音频的基础功能,包括语音转录文本、TTS文本转语音、AI静音消除(自动删除较长停顿)、废话检测(自动删除“嗯”、“你知道”等词汇)。

(来源:Podcastle)

平台内有30种TTS模板音色(语音皮肤)可选择,也包含7000首免版权音乐供创作者使用。用户可以输入文字制作单人播客,也可以按段落选择适配的皮肤,来模拟多人场景。

(来源:Podcastle)

平台启用云录制,如果是远程播客内容遇到断网情况,也可即时保存内容。同时,涉及多人播客时,可使用Podcastle的团队协作实时编辑。

(来源:Podcastle)

当前,不止Podcastle一家在用AI赋能播客。Riverside主打快速音频剪辑,Descript集成的SquadCast提质提效,Listener.Fm用人工智能做节目注释、标题和说明。Reddit用户使用了系列AI播客工具后评价,Podcastle界面最简单,平台和错误率相较低些,加之其订阅价格较为亲切,11.99美元/月(Descript12美元/月),吸引不少创作者试用。

(图源:Podcastle)

到2023年底,Podcastle表示平台内已有超过1200万个播客剧集和内容。


2年增长至百万用户

Podcastle良好的产品运营、用户增长与创始人兼CEO Arto Yeritsyan有关。前同事Tammy评价:“他具备成为一位成功企业家必须的条件,技术、产品知识、人际交往和商业头脑。”

他的确技能满满。Arto领英列出的技能有50项,涵盖软件、编程、执行管理等方方面面,在2020年被Hive Ventures评为30under30亚美尼亚科技人才。

(图源:Arto Yeritsyan领英)

Arto出生在亚美尼亚的首都、经济中心埃里温,毕业于亚美尼亚国立工程大学,又去斯坦福大学商学院进修了1年。毕业后Arto在亚美尼亚排名靠前的科技公司Be2担任工程师,2年时间就成了技术主管。

那时作为打工人,Arto坚信,“如果我表现得最好,我就会得到认可。”前同事在推荐信里给Arto贴好了标签:“头脑清晰”、“认知明确”。后来,他抓住机会进了亚美尼亚最大的独角兽公司PicsArt干了七八年,从产品开发总监一路晋升到工程副总裁,成为管理300人工程团队的关键人物。Arto在离开后还为PicsArt当了2年顾问。

到了2020年前后,很多创业者开始对人工智能感兴趣,Arto也一样。他在上学的时候有阅读障碍,许多知识需要靠听觉吸收。在他看来,音频是最简单、最直接的沟通方式。

而播客是音频形式呈现的深度访谈,又不同于单向知识灌输的讲课,它以聊天互动输出深度观点和独到拆解。

所以,在PicsArt工作期间,他萌生了做播客工具的想法。他是公司高管,每天忙得似陀螺,设想过用一个简单的插件用播客的形式给他消化文章、博客。同年6月,他和朋友们创立Podcastle摸索着创业。

在去PicsArt之前,他也作为Coding Records的联合创始人开过公司。从打工人到管理者,Arto在职业生涯里逐渐积累了识人、用人的经验。因此,他为后来Podcastle招募了3位志同道合的创始成员。Polixis原首席软件开发工程师Aram,从博物馆营销员成为WIC董事的Arsen,Webb Fontaine产品老将Vardan。

(图源:Arto Yeritsyan领英,依次为Arsen、Arsen、Vardan、Aram)

不过,他们四人之前都未深入了解过播客,所以他们一开始就踩了个坑。起初,Podcastle主打文本转音频的功能,如Arto当初设想的推出Chrome扩展程序,几秒钟将任何文章转为播客,获得了第一批用户,但却很难再迈出下一步吸引专业播客人士。

“我们只考虑到了语音内容的消费,没有考虑到播客创作者的需求。”2022年,Arto决定关停插件,恶补了播客内容创建和编辑的帖子后,投入全部资源发展数字创作和音频增强,研发创作者的编辑和转录套件工具。这时他们的目标才真正定下来,要打造一体化平台,让初学者和专业人士在AI的帮助下简单获得高品质音频。

(图源:Podcastle)

他们调整了产品设计,开发音频编辑功能,例如多轨录音、自动均衡、声音动态淡入/淡出。用户可在平台内录制至多10人参与的个人或群组播客,并在2023年9月推出了实时播客协作功能。

除了满足专业人群对音质的刚需,Arto的目标受众也包括无经验的业余播客人。“每个人心里都有故事,但他们没有专业化设备,不知道怎么读出来,以及如何保留听众。但任何人都应该有自信、有能力发出自己的声音。”

要解决这一问题,Arto就让播客从消费到创作、全链条自动化起来,连发声这一环节都给包揽了。他透露,给用户提供丰富的“声音皮肤”,是Podcastle实现盈利的策略之一。Podcastle的文转语音除了系统提供30多种的固定声线,后又开发了Revoice与额外的声线提供付费订阅。并且,Podcastle的官网博客中集合了大量播客经验贴,推荐工具贴以及案例分享。

为真正做到“一条龙服务”,Podcastle的托管平台为创作者用户提供播客RSS源,确保用户维持听众粘性。对订阅用户而言,他们可以每月录制20小时4k视频播客,平台可做简单的背景模糊处理。

Podcastle在2021年底积累下约20万用户,经过2022年产品调整后,迎来快速的用户增长,到2023年底其社区中已有超100万用户。


战争背景下融资起步

亚美尼亚的流媒体环境不佳,人们很少谈论社会问题,或是用英语做公开评价。

Arto选择在美国推出Podcastle。他发现,美国的青年群体获取资讯的方式不局限于传统媒体,而是从他们信任的播客或其他来源获取多方面信息,使得这里有更好的播客创作环境,“他们欣赏并理解有条理的讨论,而且不局限于某一阵营。”

为了吸引用户,Arto在Podcastle开始的2年为文转语音、语言转录保持免费方案。长期的免费方案需要资金支持,Arto必须筹款。

他和朋友们一切准备就绪,Arto也通过工作积累了多国行业人脉。然而,彼时亚美尼亚处于战争和和平之间,加上疫情爆发导致经济的大面积萧条。这让亚美尼亚公司获资艰难,Arto与50位投资者数次对话交谈,其中仅有2-3个起作用。

Arto在Rearrange的访谈中透露,全球日益内卷的创业潮中,他在亚美尼亚看到了相反的商业生态。“创业公司的高管或创始人都在尽可能最大化他们的影响力,试图帮助其他人。”

PicsArt,这只在亚美尼亚发展强劲的独角兽给了国内其他科技初创公司很大的筹款底气。一是亚美尼亚有很多优秀的科技人才,PicsArt让其跻身国际科技舞台成为可能。二是PicsArt致力于做全世界用户都喜爱的产品,并在努力获得资金。

Arto表示:“在我们国家,多数公司都是互帮互助,对其他公司的成功感到兴奋。这很难得,他们(PicsArt、Krisp等)会让很多来自硅谷的投资者了解亚美尼亚。”他感慨,亚美尼亚虽小,却能通过合作共同去更大的世界发挥作用。

2020年底,在第一次实现用户的有机增长后,Podcastle获得了美国VC Sierra Ventures领投的175万美元。

Podcastle是Sierra Ventures投的第二家播客公司,另一家是当时估值超35亿美元的喜马拉雅FM。他们是在投资Krisp时在亚美尼亚意外注意到了Podcastle,“Krisp在1年之内从0美元增长成400万美元ARR的公司,鉴于Podcastle也是亚美尼亚的,相信他们也可以用人才和项目建立起有资本效率的企业。”

值得一提的是,早在这轮融资中,Podcastle就获得了吴恩达的AI Fund投资。

Arto在跟投资者聊时从不避讳谈论他们国家正处于战争之中,这让多数原本对他项目感兴趣的资方即刻收声。但AI Fund没被吓跑,“他们很感兴趣,并且相信我们可以独立成长。”

最新一轮领投方Mosaic的联合创始人Simon Levene也很看好他们,“Arto他们打造的产品呈现有机增长的趋势,这种增长在未来几年会加速。”

听播客的人也逐年增多。The Infinite Dial报告显示,6成以上(12岁以上)美国人是播客听众,这个数据在2022年初蹿到了73%。Demand Sage也有数据表示,全球播客受众将在2024年达到5.049亿。

目前,在Arto看来,播客行业最大的趋势走向有两个,最大的方向是音质提升,用AI工具将任何音频生成“伪高质量音频”,另一个大方向是市场营销,高仿真的AI语音能协助大量广告切片的分发,帮助企业分享和引流。

Podcastle的公告显示,获投后除了加速AI工具的开发,还需扩大产品范围。为此Arto又招揽了不少人才。前段时间,Canva前副总裁Allan上任首席商务官,加入领导团队的还有来自Prezi、Uber、Facebook的老员工。


继续滑动看下一个
创业邦
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存